总览
本章节范围:AI agent harness——包裹 LLM 的运行骨架,把模型变成能跨步骤、跨会话、带工具完成真实任务的系统 目标读者:设计或评估 agent 系统(coding agent、研究 agent、多 agent 编排)的工程师
范围与边界 (Scope)
- 包含:agent harness 的九个子系统——上下文工程、记忆、工具与 MCP、编排与工作流、规划与自纠、安全沙箱、评测可观测、人机交互、扩展生态
- 不包含:
- LLM 模型本身的训练 / 架构 → 见 03-长上下文 等算法章节
- agent 在具体业务(如本项目仿真)中的落地 → 见各业务模块文档
什么是 harness?
核心问题:同一个模型,为什么有的 agent 稳、有的 agent 飘?
差距主要不在模型,在 harness——包裹模型的确定性基础设施。对 Claude Code 的源码分析发现,它只有 1.6% 是 AI 决策逻辑,其余 98.4% 是权限门、上下文管理、工具路由、恢复逻辑这类确定性骨架(arXiv:2604.14228)。
harness 是模型之外的运行骨架:它决定模型每一步看到哪些 token、能调哪些工具、记住什么、被允许做什么。Anthropic 的判断是"最大的 ROI 来自对 agent 实际所见 token 的工程化管理,而非提示词措辞"。本章把 harness 拆成九个子系统逐一讲透。
Harness 解剖:九个子系统

| 子系统 | 解决什么 | 子章节 |
|---|---|---|
| 上下文工程 | 单次窗口内放什么、怎么组织与压缩 | 02 |
| 记忆 | 跨窗口怎么存、取、遗忘 | 03 |
| 工具与 MCP | 模型怎么调外部能力 | 05 |
| 编排与工作流 | 单 agent 还是多 agent、怎么协同 | 04 |
| 规划与自纠 | 任务怎么分解、错了怎么修 | 06 |
| 安全与沙箱 | 怎么防注入、隔离风险 | 07 |
| 评测与可观测 | 怎么衡量好坏、怎么追踪 | 08 |
| 人机交互与控制 | 怎么审批、中断、远程控制 | 09 |
| 扩展与生态 | 怎么加 skill / hook / plugin | 10 |
@tbl-agent-overview-subsystems Agent harness 九个子系统:各子系统名称、解决的核心问题及对应子章节编号
名词定义
| 名词 | 定义 |
|---|---|
| harness (运行骨架) | 包裹 LLM 的确定性基础设施:上下文管理、工具路由、权限门、恢复逻辑 |
| 上下文工程 (context engineering) | 把有限的 context window 当工程资源管理:写入/选取/压缩/隔离 |
| agentic loop | 模型"思考—调工具—观察—再思考"的循环,是 agent 的基本执行单元 |
| MCP (Model Context Protocol) | agent 接外部工具/服务的标准协议,号称 "USB-C for AI" |
| subagent (子 agent) | 主 agent 派生、上下文隔离、只回传结论的并行执行单元 |
| compaction (上下文压缩) | 历史接近窗口上限时压成摘要续跑(详见 03-记忆系统) |
| prompt injection | 通过工具返回或外部内容注入恶意指令,诱导 agent 替攻击者行动 |
| skill | 按需加载的能力模块,progressive disclosure 减少常驻上下文 |
@tbl-agent-overview-glossary Agent harness 章节核心名词定义:各跨子系统术语的中英文对照与精确含义
本章节所有子文档默认这些跨子系统名词已定义;各子章节的专属名词在其 01-总览.md 的名词定义段补充。
子章节索引 (Index)
- 02-上下文工程/ — 窗口内的组织与压缩:核心原则、system prompt、窗口内组织、token 经济学
- 03-记忆系统/ — 跨窗口的存取:分类、compaction、文件记忆、向量检索、生产系统、安全
- 04-编排与工作流/ — 单/多 agent、三种编排拓扑、workflow 五模式、长任务 session 化
- 05-工具系统与 MCP/ — 工具设计、MCP 协议、延迟加载、代码执行
- 06-规划与自纠/ — 任务分解、reflection、self-repair、验证闭环
- 07-安全与沙箱/ — prompt injection、沙箱隔离、MCP 供应链
- 08-评测与可观测/ — SWE-bench、Terminal-Bench、tracing、benchmark 饱和
- 09-人机交互与控制/ — 权限审批、HITL/steering、远程与异步 agent
- 10-扩展性与生态/ — skill、hook、plugin、AGENTS.md 约定
调研批次与划分依据见 brainstorm 文档。
参考资料
- Liu et al. Dive into Claude Code: The Design Space of Today's and Future AI Agent Systems. arXiv:2604.14228, 2026.
- Anthropic. Effective context engineering for AI agents. 2025.
- 各子章节
01-总览.md的参考来源段含该子系统完整引用。